Ví dụ Entropy thông tin

Một dòng chữ luôn chỉ có các ký tự "a" sẽ có entropy bằng 0, vì ký tự tiếp theo sẽ luôn là "a". Một dòng chữ chỉ có hai ký tự 0 và 1 ngẫu nhiên hoàn toàn sẽ có entropy là 1 bit cho mỗi ký tự.

Một dòng chữ tiếng Anh thông thường có entropy khoảng 1,1 đến 1,6 bit cho mỗi ký tự. Thuật toán nén PPM có thể tạo ra tỷ lệ nén 1,5 bit cho mỗi ký tự. Trên thực tế, tỷ lệ nén của các thuật toán nén thông dụng có thể được dùng làm ước lượng cho entropy của dữ liệu.

Entropy của dòng văn bản thuần thường được định nghĩa dựa trên mô hình Markov. Nếu các ký tự tiếp theo hoàn toàn độc lập với các ký tự trước đó, entropy nhị phân sẽ là:

H ( S ) = − ∑ p i log 2 ⁡ p i , {\displaystyle H({\mathcal {S}})=-\sum p_{i}\log _{2}p_{i},\,\!}

với pi là xác suất của i.

Liên quan

Entropy Entropy thông tin Entropy và sự sống

Tài liệu tham khảo

WikiPedia: Entropy thông tin http://cm.bell-labs.com/cm/ms/what/shannonday/pape... http://www.rheingold.com/texts/tft/6.html